Блог им. karapuz |Сытый конному не леший: фокусы data mining

    • 28 февраля 2013, 04:02
    • |
    • karapuz
  • Еще
Знаете, какой набор переменных лучше всего предсказывает S&P500? Ни за что не догадаетесь: это производство сливочного масла в Бангладеш и США + выпуск сыра в США + поголовье овец в США и Бангладеш. И это не совсем шутка — именно такой результат получили исследователи, когда попытались найти, какие переменные лучше всего скоррелированы с рынком акций.
Сытый конному не леший: фокусы data mining

На самом деле, конечно, это экстремальный пример так называемого overfitting — переподгонки. Будьте осторожны с корреляциями! ) И с моделями, основанными на истории — тоже. Модель, идеально описывающая исторические данные, может абсолютно идиотически вести себя в будущем. Яркий пример:

( Читать дальше )

....все тэги
UPDONW
Новый дизайн